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摘要 选择 性 分 析 和 报告 是 造成 心理 科学 研究 可 重复 性 危机 的 一 个 素 。 近 年 来 研究 者 

提出 用 多 元 宇 审 样 分 析 的 方法 , 压 括 多 种 数据 分 析 集 略 , 减少 分 析 过 程 中 的 主观 选择 性 和 随 

意 性 ， 并 进行 稳健 性 检验 以 提高 结果 的 可 靠 性 。 以 手机 使 用 与 手机 压力 的 关系 为 例 , 介绍 该 

方法 和 操作 步骤 。 该 方法 已 在 心理 学 和 认 知 神经 科学 等 领域 得 到 一 定 的 应 用 。 未 来 研究 应 继 
= 续 发 展 和 完善 该 方法 的 统计 推断 , 使 之 运用 到 更 多 的 数据 类 型 和 更 广 的 研究 领域 中 。 
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科学 研究 的 可 重复 性 主要 有 两 层 含义 : 一 是 对 同一 个 数据 集 ， 由 不 同 的 研究 者 使 用 相似 
的 方法 对 原 研究 结论 进行 验证 (一 般 用 reproducibility 表示 ); 二 是 不 同 研究 者 使 用 相似 的 方 
= 法 ,收集 新 的 数据 检验 已 有 研究 结果 的 可 靠 性 (一般 用 replicability 表示 ) (Artner et al., 2020; 
Dd Nosek et al., 2022)。 一 直 以 来 ， 心 理科 学 研究 备 受 可 重复 性 危机 的 诉 病 ， 引 发 了 国内 外 心理 


学 研究 者 的 广泛 关注 (Aarts et al., 2015; Nosek et al., 2022; Pashler & Wagenmakers, 2012; Tackett 


et al., 2019; RIE, 2016; 胡 传 鹏 等 , 2016; 骆 大 森 , 2017) 。 开 放 科 学 联盟 (Open science 


collaboration, OSC) 在 Science 期 刊 发 表 了 一 篇 探讨 心理 学 研究 可 重复 性 的 文章 ， 发 现 大 部 
分 心理 学 研究 结果 不 可 重复 ， 并 提出 最 关键 的 原因 是 “可 疑 操 作 ”， 即 选择 性 分 析 、 选 择 性 
现 研 究 结 果 ， 或 者 不 充分 呈现 研究 结果 (Aarts et al., 2015)。 换 言 之 ， 对 于 任何 数据 集 ， 
者 都 有 大 量 可 操作 的 空间 ， 可 以 自由 、 自 主 地 选择 只 呈现 某 一 种 分 析 结 果 ， 这 种 单一 结果 的 


非 代表 性 加 剧 了 可 重复 性 危机 (Aarts et al., 2015; Simonsohn et al., 2020; Steegen et al., 2016). 
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国内 研究 者 通过 分 析 OSC 的 研究 材料 ， 进 一 步 区 分 可 重复 危机 产生 的 两 大 源头 《传统 统计 
学 体系 的 局 限 和 人 为 偏差 ) 的 差异 ， 发 现 原 研 究 的 阳性 结果 中 ， 真 阳性 结果 不 到 三 分 之 一 ， 
相当 部 分 的 结果 ， 极 有 可 能 是 人 为 偏差 造成 的 ( 骆 大 森 , 2017)， 例如 值 操 纵 (P-hacking)、 研 


究 者 自由 度 (researcher degree of freedom)、“ 小 径 分 又 的 花园 ”(garden of forking paths) (Gelman 


& Loken, 2014; Simmons etal., 2011; 胡 传 鹏 等 ,2016)。 这 种 人 为 偏差 主要 体现 在 研究 者 设计 、 
分 析 、 发 表 过 程 中 对 变量 选择 、 分 析 策 略 的 主观 操作 上 。 而 过 于 追求 阳性 或 显著 性 的 结果 是 
导致 研究 者 选择 分 析 变 量 、 选 择 性 报告 结果 的 重要 原因 。 因 此 ,心理 科学 研究 中 常常 出 现 两 
种 现象 一 一 过 度 追 求 统计 显著 性 或 夸大 化 效应 〈inflated effects)、 抵 制 或 忽略 小 效应 (G6tzl 
et al., 2020; Ioannidis, 2008; 胡 传 觅 等 , 2016)。 社 会 科学 的 研究 更 看 好 有 利 或 者 预期 的 大 效应 
(Fanelli et al., 2017)， 这 种 偏向 通常 会 暗示 或 鼓励 研究 者 报告 夸大 化 的 效应 ; 同时 ， 研 究 者 期 
待 好 的 结果 ， 认 为 小 的 效应 是 不 正常 的 (Gatzl etal., 2020; EH, 2021). 但是， 小 效应 或 不 
显著 的 效应 也 有 其 存在 的 意义 , 不 应 该 忽视 和 回避 (例如 基因 研究 中 通常 只 有 小 的 效应 (Gatz 
et al., 2022))。 心 理学 的 现象 很 复杂 ， 并 不 只 是 由 单个 因素 决定 的 ， 忽 视 小 效应 可 能 意味 着 
忽视 真 效应 , 容易 造成 错误 的 认识 , 阻碍 理论 的 发 展 (Gotz et al., 2022; Prentice & Miller, 1992). 

近年 来 , 研究 者 在 应 对 心理 学 可 重复 性 危机 中 进行 了 许多 探索 , 提出 了 许多 的 尝试 性 解 
决 方式 (Klein etal., 2018; Laraway et al., 2019; 刘 佳 等 , 2018; 胡 传 鹏 等 ,2016)。 例 如 研究 预 注 
册 、 严 格 执行 预 注 册 计划 、 完 整 分 析 数 据 、 专 业 期 刊 共同 努力 (如 完善 投稿 要 求 、 重 视 研 究 
设计 ) 等 。 由 于 研究 者 主观 偏差 对 效应 量 有 着 重要 影响 ( 骆 大 和 森 ,2017)， 如何 解决 研究 者 在 研 
究 中 选择 性 分 析 和 选择 性 报告 的 问题 ， 对 提升 心理 学 研究 的 可 重复 性 具有 重要 意义 
(Simonsohn et al., 2020; Steegen et al., 2016)。 所 以 针对 选择 性 报告 和 选择 性 分 析 这 一 问题 ， 
研究 者 提出 检验 结果 报告 的 稳健 性 , 即使 用 不 同 的 分 析 策 略 , 对 已 有 研究 结果 的 效应 进行 可 


靠 性 检验 。 基于 此 , 研究 者 提出 了 效应 颤动 分 析 (Vibration of effects, VoF ) (Patel et al., 2015)、 


多 模型 分 析 (Multimodel analysis ) (Young & Holsteen, 2017)、 多 元 宇宙 分 析 (Multiverse analysis ) 


(多 元 宇宙 样 分 析 的 一 种 〉(Steegen et al., 2016)、 规 范 曲 线 分 析 (Specification curve analysis) 


(Simonsohn et al., 2015, 2020) 等 分 析 方法 。 这 些 方法 的 核心 共同 点 在 于 : 不 再 选择 性 呈现 分 
析 结 果 ， 而 是 报告 数据 集中 所 有 可 能 的 分 析 结 果 ， 并 进行 稳健 性 检验 ， 综 合 确定 变量 间 关 系 
和 效应 大 小 。 图 1 展示 了 这 类 方法 的 特征 ， 对 于 某 一 数据 集 的 变量 ,不 同 研究 者 可 以 选择 不 
同 分析 策 略 组 合 ， 产 生 不 同 的 分 析 结 果 。 假设 研究 者 想 要 探讨 自 变 量 与 因 变 量 的 关系 ,在 模 
型 和 数据 集 都 一 样 的 情况 下 ， 研 究 者 A 可 以 选择 报告 一 种 分 析 策 略 的 结果 (图 中 线条 被 椭 
圆 标 记 的 组 合 ), 研 究 者 B 则 选择 报告 另 一 种 分 析 策 略 的 结果 (图 中 线条 被 方形 标记 的 组 合 )， 


chinaXiv:202207.00082v1 


通常 不 同 的 组 合 结果 不 同 , 这 样 就 使 得 研究 结论 可 能 存在 不 可 重复 性 。 而 多 元 宇宙 样 分 析 则 
强调 报告 图 中 所 有 分 析 策略 的 结果 ， 并 进行 效应 稳健 性 检验 。 

本 研究 由 在 结合 实例 介绍 多 元 宇宙 样 分 析 及 其 在 心理 学 研究 中 的 应 用 , 并 对 其 优势 和 局 
限 性 进行 讨论 和 总 结 。 
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图 1. 多 元 宇宙 样 分 析 的 分 析 策 略 组 合 树 状 图 
TE: 图 中 线条 代表 变量 操作 的 不 同 选 择 ， 被 椭圆 标记 的 线条 组 合 代 表 研 究 A 的 选择 ， 被 方形 标记 的 


线条 组 合 代 表 研 究 B 的 选择 。 模 型 指 探讨 变量 关系 时 采用 的 估计 方法 (如 线性 区 
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2 多 元 宇宙 样 分 析 


如 前 文 所 述 ， 多 元 宇宙 样 分 析 指 代 一 组 有 着 核心 共同 点 的 统计 分 析 方 法 。Patel 等 (2015) 
第 一 次 提出 相关 的 概念 一 一 效应 颤动 分 析 , 即 描述 一 个 给 定 的 效应 估计 在 多 种 不 同 的 模型 分 
析 下 的 变化 程度 。 通 过 呈现 不 同 分 析 策 略 的 效应 和 显著 性 ， 来 确定 变量 间 的 关系 是 否 稳 定 
《效应 变化 幅度 越 大 越 不 稳定 )。Steegen 等 (2016) 提 出 了 多 元 宇宙 分 析 ， 指 对 一 个 数据 集中 
的 变量 进行 操纵 〈 例 如 ， 变 量 如 何 分 类 、 变 量 如 何 组 合 、 变 量 如 何 转变 、 数 据 排除 的 标准 等 
等 )， 每 次 操纵 将 获得 多 种 选择 ， 这 些 不 同 的 选择 放 在 一 起 就 获得 不 同 的 组 合 一 一 即 多 个 世 


FREH. Young 和 Holsteen (2017) 提 出 了 多 模型 分 析 ， 指 通过 选择 协 变量 、 改 变 函数 形式 
和 回归 模型 等 形成 大 量 不 同 的 分 析 策 略 , 同时 多 模型 分 析 呈 现 不 同 分 析 策 略 的 结果 以 检验 稳 
健 性 。Young 和 Holsteen (2017) 将 不 同 的 分 析 策 略 命 名 为 规范 《Specification)。Simonsohn 等 


(2020) 在 前 人 的 基础 上 提出 了 规范 曲线 分 析 ， 指 的 是 将 所 有 可 能 的 分 析 策 略 的 效应 结果 分 布 


在 一 个 规范 曲线 中 ， 并 对 该 曲线 进行 统计 推断 ， 检 验 研 究 所 关心 效应 的 稳健 性 。 


总 之 ， 这 些 相关 分 析 方 法 都 具有 一 个 共同 特征 ,主张 报 告 多 种 分 析 策 略 的 结果 ， 并 对 这 
些 所 有 可 能 的 结果 进行 稳健 性 检验 ， 避 免 选择 性 分 析 和 报告 ， 减 少 研究 者 主观 偏差 的 影响 ， 


增加 结果 的 可 靠 性 和 透明 性 ， 有 利于 解决 有 争议 的 话题 。 因 而 ， 近 年 来 的 一 些 研究 者 将 以 上 


这 类 方法 统称 为 “多 元 宇宙 样 分 析 (Multiverse-style analysis )” (Del Giudice & Gangestad, 2021; 


Rijnhart et al., 2021)。 本 研究 中 也 使 用 多 元 宇宙 样 分 析 这 一 术语 。 


3 基本 步骤 和 实例 分 析 


以 往 研 究 者 指出 ， 多 元 宇宙 样 分 析 主 要 分 为 三 个 步骤 : (1) 确定 所 有 分 析 策 略 的 全 集 ; 


《2) 对 所 有 分 析 策 略 的 效应 进行 估计 和 描述 ，(3) 对 所 有 分 析 策 略 进 行 整体 上 的 


统计 推断 


(Patel et al., 2015; Simonsohn et al., 2015, 2020; Steegen et al., 2016)。 由 于 效应 振 颤 分 析 、 多 模 


型 分 析 等 只 完成 了 前 两 步 ， 而 Simonsohn 等 (2020) 提 出 的 规范 曲线 分 析 陡 括 了 所 有 步 台 ， 因 


此 ， 本 文 主要 以 规范 曲线 分 析 的 步骤 为 例 进行 介绍 。 
C1) 确定 所 有 分 析 策 略 组 合 的 全 和 旨 


Am 
[e] 


BAS ITA RAR, 并 生成 所 有 可 能 的 分 析 策 略 组 合 , 排除 不 可 行 或 元 余 的 组 合 


(Patel et al., 2015; Simonsohn et al., 2015, 2020; Steegen et al., 2016)。 通 常 可 以 对 数 # 


ERTE 


变量 类 型 、 变 量 测量 方式 、 模 型 估计 选择 、 控 制 变量 等 方面 进行 不 同 的 操作 ， 并 将 这 些 操作 


进行 组 合 ， 形 成 一 个 有 大 量 不 同 分 析 策 略 的 集合 (Lonsdorf et al., 2022; Patel et 


Simonsohn et al., 2020; Steegen et al., 2016). 


al., 2015; 


(2) 对 所 有 分 析 策 略 的 效应 进行 估计 和 描述 。 呈 现 所 有 合理 组 合 的 估计 结果 的 分 布 情 


况 ， 并 确定 哪些 分 析 策 略 是 最 重要 的 。 
(3) 统计 推断 。 共 同 考 虑 所 有 这 些 合理 的 组 合 结果 与 零 假 设 有 多 不 一 致 。 早 


期 多 元 宇 


宙 样 分 析 的 研究 仅仅 完成 前 两 个 步骤 ， 根 据 显赫 性 结果 的 占 比 来 推论 研究 关心 的 效应 (例如 
Steegen et al., 2016)， 或 仅仅 依靠 所 有 估计 值 的 中 位 数 、 均 值 等 进行 描述 性 说 明 ( 例 如 Young 


& Holsteen, 2017)， 未 进行 统计 推断 。 


假设 分 布 ， 可 以 通过 在 空 值 下 重新 抽样 实现 ， 这 需要 修改 观测 数据 以 保证 零 假 设 为 真 ， 然 后 
随机 多 次 抽取 《例如 500 次 ) 修改 后 的 数据 样本 (Simonsohn et al., 2015, 2020)。 接 着 计算 这 
些 抽取 的 样本 的 感 兴趣 的 检验 统计 量 ， 得 到 的 分 布 就 是 检验 统计 量 在 零 假 设 下 的 估计 分 布 
(Simonsohn et al.,2015,2020)。 最 后 用 实际 估计 效应 与 零 分 布 情况 进行 比较 ,检验 零 假 设 〈 在 
y=F(x,z) 的 函数 中 ,x 对 yy 没有 效应 。 其 中 yy 为 因 变量 , x 是 自 变 量 ，z 为 混杂 变量 ) 是 否 为 
真 (Simonsohn etal., 2015)。 研 究 者 认为 实验 数据 和 非 实验 数据 来 源 于 两 种 不 同 的 情境 ， 由 于 
非 实验 数据 中 协 变量 与 预测 变量 更 可 能 存在 相关 , 所 以 实验 数据 在 零 假设 情况 下 的 抽样 比 非 
实验 数据 更 直观 (Simonsohn et al., 2015, 2020)。 为 此 ， 研 究 者 使 用 置换 检验 和 bootstrap 方法 
分 别 对 两 种 数据 进行 统计 推 朵 (Simonsohn et al., 2015, 2020). 

对 于 实验 性 数据 〈 如 实验 组 和 对 照 组 )， 使 用 置换 检验 较为 简单 和 直观 (Simonsohn et al., 
2015)。 首 先 将 随机 分 配 的 变量 (例如 为 探讨 飓风 名 字 不 同 是 否 造 成 不 同 影响 ， 飓 风 的 名 字 
被 随机 分 配 到 男性 化 和 女性 化 组 (Simonsohn etal., 2015)) 进行 重新 打 乱 排序 。 打 乱 的 数据 集 
保留 原始 数据 集 的 所 有 其 他 特征 (如 共 线 性 、 偏 度 等 )， 此 时 打 乱 数据 集 里 面 的 自 变 量 和 因 
变量 没有 关系 (此 时 零 假设 为 真 )。 然 后 对 每 一 个 打 乱 数据 集 的 所 有 规范 进行 估计 。 重 复 这 


个 步骤 若干 次 〈 例 如 500 次 )， 就 能 得 到 在 零 假设 情况 下 规范 曲线 的 分 布 (Simonsohn et al., 


2020). 

对 于 非 实 验 性 数据 , 在 回归 模型 中 主要 有 两 种 修改 数据 的 方式 从 而 产生 零 假 设 分 布 。 一 
种 是 强制 为 零 然 后 打 乱 残 差 数据 集 ， 另 一 种 是 强制 为 零 后 对 数据 集 进 行 随机 抽样 。 研 究 者 认 
PI 为 使 用 后 者 更 为 合理 (具体 论证 见 Simonsohn et al., 2015, 2020)。 具 体 来 讲 ， 对 每 一 个 组 合 的 
观测 数据 进行 模型 估计 ， 即 估计 = at bx 十 cz+ e 的 参数 a，p 和 c。 然 后 通过 创建 新 的 因 变 
量 y 的 方式 将 数据 集 强制 为 零 ， 这 个 y 此 时 减 去 了 x 对 y 估 计 效 应 ( 即 y*=y 一 bx, b 是 bp 的 取 
样 估计 值 )。 对 于 y*， 现 在 可 以 获得 零 假 设 为 真 的 模型 一 一 ”=a+ jx + cz 二 e， 此 时 , b* = 
0〔 即 x 与 之 间 没 有 效应 ， 零 假设 成 立 〉(Flachaire, 1999; Simonsohn et al., 2020)。 为 了 生成 
理论 /期 待 结果 的 分 布 ( 零 假设 情况 下 b 的 取样 分 布 )， 使 用 放 回 抽样 对 数据 集 的 行进 行 抽 取 
(以 y* 而 不 是 y 为 因 变 量 ), 每 个 重新 抽样 的 样本 量 与 原样 本 相同 。 在 所 有 重新 抽样 过 程 中 获得 
的 5 的 分 布 用 来 评估 在 零 假设 情况 为 真 时 观察 到 的 6 的 极限 性 。 具 体 步骤 是 (Simonsohn et al., 
2020): 

估计 观测 数据 的 所 有 KK 个 分 析 策 略 组合 ，ye， = Fee ri zxz)。 这 会 产生 天 个 不 同 的 
估计 值 B (f=1....K)。 但 如 果 因 变量 在 不 同 的 分 析 策 略 中 一 样 ， 对 于 多 个 或 所 有 分 析 策 略 组 


Wh 


TH. 


ARYE yr, 可 能 相等 。 

@) 产 生 零 假设 情况 下 的 K 个 不 同 分 析 策 略 组 合 的 因 变 量 ，yy* = Ye 一 Br X xpo Myy 
取 不 同 值 的 数量 小 于 K, 也 会 存在 天 个 不 同 的 yr” 因为 bk 在 不 同 的 策略 组 合 下 是 不 一 样 的 。 
所 以 现在 数据 集中 每 一 行 有 x 的 值 和 kK 个 不 同 的 y* 值 。 

有 放 回 地 在 和 矩阵 (步骤 @ 中 形成 的 零 假 设 数 据 集中 随机 抽取 N 行 CN 为 样本 量 ) 
《这 样 会 形成 一 个 相同 样本 的 新 数据 集 )， 并 且 在 所 有 天 个 规范 上 执行 。 

昌 依 据 步 又 9) 抽取 的 数据 计算 这 K 个 分 析 策 略 组 合 的 估计 值 ， 形 成 一 个 〈 估 计 值 由 小 
到 大 的 ) 曲线 。 

@@ 重 复 步 又 的 和 四 多 次 〈 例 如 500 或 1000 次 )。 

@@ 每 个 抽取 的 样本 都 有 天 个 估计 值 , 一 种 分 析 策略 组 合 对 应 一 个 。 计 算 在 多 大 程度 上 ， 

重复 抽样 的 分 析 策 略 组 合 形成 的 曲线 的 统计 指标 《如 估计 值 中 位 数 ) 在 总 体 上 与 观测 到 

的 真实 数据 存在 差异 。 

规范 曲线 分 析 提 供 了 三 个 统计 推断 指标 : (1) 估计 值 的 中 位 数 (Median 6)， 即 将 估计 
值 按 从 小 到 大 排列 ， 并 选取 中 位 数 ; (2) 主要 方向 上 的 显著 的 结果 (the number of significant 
results in the predominant direction, NSRPD)， 即 多 种 分 析 策 略 组 合 的 估计 值 中 ， 统 计 上 显著 
) 的 估计 值 占 主导 地 位 (显著 性 结果 的 数量 的 方向 〈 正 向 或 负 向 ); (3) 每 个 P 值 的 Z 分 数 
X 转换 的 均 分 (Simonsohn etal., 2015,2020)。 统 计 推 断 就 是 ， 检 验 估 计 值 的 中 位 数 是 否 不 同 于 
>< 所 有 分 析 组 合 估计 值 为 零 GREJA) 的 情况 ; 主要 方向 上 的 显著 结果 是 否 多 于 或 高 于 所 
有 规范 估计 值 为 零 假设 的 情况 ; 不 同 于 第 二 种 检验 指标 , 第 三 个 指标 将 所 有 了 值 进 行 累加 ， 
然后 平均 每 个 分 析 组 合 的 P 值 对 应 的 Z 分 数 ， 最 后 检验 平均 的 Z 分 数 是 否 不 同 于 所 有 组 合 
在 零 假 设 下 的 情况 (Simonsohn et al., 2020). 

总 的 来 说 , 多 元 宇宙 样 分 析 三 步 法 已 获得 了 许多 研究 者 的 认可 。 目前 研究 者 可 以 使 用 多 
种 软件 进行 多 元 宇宙 样 分 析 ， 例 如 Stata 软件 、Python 和 及 软件 。 研究 者 开发 了 许多 R 软件 


包 ， 如 specr (Masur & Scharkow, 2020), multiverse (Sarma, 2021), rdfanalysis (Gassen, 2021), 


NI 


multifear (Lonsdorf et al., 2022). %{ Python 软件 ， 有 specification_curve (Turrell, 2021), 


Boba (Liu et al., 2021) 等 软件 包 。 对 于 Stata 软件 ， 有 speccurve (Sievertsen & Kim, 2020) 以 及 


分 析 网 站 (Young & Holsteen, 2017) 等 。 实 例 中 依托 的 是 R 软件 包 specr。 

(4) 实例 分 析 

为 进一步 理解 多 元 宇宙 样 分 析 , 我 们 以 探讨 智能 手机 使 用 与 智能 手机 压力 之 间 的 关系 为 
实例 以 下 简称 实例 )， 阔 释 多 元 宇宙 样 分 析 的 上 其 体操 作 。 本 实例 相关 的 代码 和 数据 可 从 网 


HE Chttps://osf.io/fe8he/) 获取 。 需 要 说 明 的 是 ， 为 了 充分 展示 该 方法 的 应 用 范围 ， 实 例 圳 括 
了 尽 可 能 多 的 变量 操作 和 策略 分 析 组 合 , 有 些 变量 操作 (如 将 连续 变量 人 为 划分 为 分 类 变量 ) 
未 必 是 单数 据 集 多 元 宇宙 样 分 析 的 合理 操作 , 但 在 多 数据 集 多 元 宇宙 样 分 析 中 比较 常见 〈 例 
如 对 同一 变量 ， 有 的 数据 集 使 用 连续 变量 ， 有 的 则 用 分 类 变量 )。 因 此 ， 本 文 的 实例 仅 作为 
演示 方法 的 样 例 , 不 作为 方法 实际 应 用 的 规范 。 研究 者 应 从 实证 研究 中 学 习 多 元 宇宙 样 分 析 
在 不 同 应 用 情境 下 的 具体 操作 。 

步骤 一 : 在 本 实例 中 ,数据 集中 有 青少年 智能 手机 使 用 时 间 、 智 能 手机 压力 以 及 四 个 人 
口 学 变量 等 变量 (Huang et al., 2021)。 表 1 中 展示 了 研究 者 在 探讨 智能 手机 使 用 与 智能 手机 
压力 关系 时 可 能 的 分 析 策 略 。 本 实例 中 ， 共 产生 了 768 个 分 析 策 略 组 合 〈 见 表 1)。 

表 1 探究 智能 手机 使 用 与 智能 手机 压力 关系 的 分 析 策 略 


研究 问题 : 智能 手机 使 用 与 智能 手机 压力 的 关系 


研究 者 对 变量 的 决策 策略 的 可 能 性 


me 作为 连续 变量 : 工作 日 使 用 时 间 、 休 息 日 使 用 时 间 、 工 作 日 


和 休息 日 平均 使 用 时 i 


aj 


m 智能 手机 使 用 


0 


E 。 作为 分 类 变量 ; 将 连续 变量 虚拟 编码 为 低 使 用 (<2 小 时 编 


码 为 0) 和 高 使 用 (>=2 小 时 编码 为 1)。 


e@ 不 同 测量 方式 ， 简 版 手机 压力 量 表 和 完整 版 手机 压力 量 表 


@ ”完整 版 中 不 同 的 维度 分 别 进行 替代 : 6 个 维度 〈 不 满意 的 信 


o 智能 手机 压力 


县 和 交流 、 未 满足 的 娱乐 动机 、 在 线 学 习 负 担 、 社 会 关注 、 


无 用 和 过 载 信 息 、 在 线 言语 攻击 ) 


> ”模型 选用 


= 
+> 


线性 模型 


令 4 个 协 变量 取 所 有 子 集 分 别 进行 控制 (如 年 龄 、 年 龄 + 性 别 、 


@ HE 性 别 + 居 住地 ) 


i 


令 ”所 有 协 变 量 都 不 控制 


智能 手机 使 用 与 智能 手机 压力 之 间 的 关系 分 析 策 略 共 768 个 组 合 ， 即 768 个 宇宙 。( 智 能 手机 使 用 时 


间 (6 种 ) X 智能 手机 压力 (8 种 ) X 模型 选用 (1 种 ) X 控制 变量 (16 FH) =768 种 ) 


步骤 二 : 图 2 描述 了 不 同 分 析 策 略 下 智能 手机 使 用 对 智能 手机 压力 的 预测 效应 。768 个 
策略 (从 图 2 左边 到 右边 ) 的 总 体 预 测 效应 在 .026 到 .31 之 间 ，735 个 组 合 获得 了 显著 的 结 
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R, 33 个 组 合 
5 个 分 析 策 略 的 结果 ， 则 智 
研究 者 报告 第 123 个 分 析 策略 的 
DEB) CB=.11,p<.05); 如 果 研 究 者 报告 第 719 个 分 析 策 略 的 结果 ， 则 
压力 有 显著 且 较 大 的 预测 效应 〈 太 .27,p<.001)。 此 外 ， 当 智 
的 使 用 时 间 时 ， 预 测 效 应 更 大 ， 而 指标 为 工作 日 


结果 , 则 智 


4 言语 攻击 来 衡量 手机 压力 时 ， 研 究 者 会 得 到 较 小 的 预测 效应 。 


estimate 


休息 日 时 间 分 类 


B 。 休息 日 使 用 时 间 
使 用 时 间 均 值 分 类 


不 满意 的 信息 和 交流 
Maea mEn 


表示 该 系数 的 置信 


RE: 


明 易 懂 的 特点 (Simnonsohn et al., 2020), 在 以 往 的 研究 中 较为 常 月 
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分 析 策 略 组 合 ( 宇宙 ) 
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效应 不 显著 ,这 说 明了 效应 随 分 析 策 略 不 同 而 变化 。 例如， 如 果 研 究 者 报告 第 
能 手机 使 用 对 手机 压力 没有 显著 预测 作用 (B=.003, p>.05); 如果 
能 手机 使 用 对 手机 压力 有 显著 预测 作用 , 但 是 效 


智能 手机 使 用 对 手机 


iy | " ni 


i a DN i | nt, 


2. 多 元 宇宙 样 分 析 策 略 结果 描述 


注 : Al2 (A) # estimate 指 回归 系数 的 估计 值 ， 曲 线 上 点 的 纵 4 


色 表 示 显 著 的 策略 组 合 。 


区 间 。 图 2(B) 右 侧 纵 坐 标 controls 指控 制 变量 ，y 指 


标 表示 不 同 策略 组 合 下 自 变 量 对 


K 


变量 的 


H 


PE FOLE KIVER ERIRE H 
使 用 时 间 时 ， 预 测 效应 更 小 。 


当 只 通过 受到 


和 机 山 Ui} tt * 


ed ~ 


— 
slonuoo 


归 系 数 ， 阴 影 部 分 


因 变 量 ，x 指 自 变量 。 灰 


色 表 示 不 显著 的 策略 组 合 ， 蓝 


由 于 估计 值 中 位 数 和 主要 方向 上 的 显著 结果 (NSRPD ) 这 两 个 统计 推 央 指标 简 


有 (如 Orben & Przybylski, 2019a， 


2019b)， 本 实例 也 使 用 这 两 个 指标 。 实 例 为 非 实验 数据 ， 使 用 bootstrap HET AU HEMT, FAE 


能 手机 使 用 对 手机 压力 没有 影响 。 实 例 展示 了 不 同 智 


能 手机 使 用 与 智 


能 手机 压力 之 间 


的 关系 的 统计 推断 结果 《〈 表 2)， 可 见 无 论 何 种 分 析 策 略 下 ， 智 能 手机 使 用 对 手机 压力 的 作 


] 都 是 显著 且 稳 健 的 (Median £ = .12 to .20, p<.001; NSRPD= 106/128 to 128/128, p<.001). 


表 2 多 元 宇宙 样 分 析 的 统计 推 肠 结果 


Number of Number of 

significant significant 
智能 手机 使 用 Median $ 

and positive and negative 

results results 

工作 日 使 用 时 间 .12### 117/128### 十 0/128 
休息 日 使 用 时 间 .20### 128/128### 十 0/128 
使 用 时 间 均 分 A9*** 128/128***T 0/128 
工作 日 使 用 时 间 分 类 11*** 106/128##y 十 0/128 
休息 日 使 用 时 间 分 类 .15*** 128/128### 十 0/128 
使 用 时 间 均 分 分 类 .19## 128/128*** 十 0/128 


Note. ***p<.001, t= NSRPD。 本 研究 使 用 数据 从 原 研究 者 (Huang et al., 2021) 获 得 ， 且 得 到 使 用 允许 。 


由 于 本 实例 仅仅 对 变量 进行 了 不 同 操纵 , 未 来 研究 还 应 该 考虑 恰当 的 参数 估计 方法 (如 
极 大 似 然 或 贝 叶 斯 估计 )、 模 型 选择 指标 〈 如 BIC 或 41C)、 抽 样 算法 (如 bootstrap 或 马尔 
科 夫 -蒙特 卡 洛 ) 等 ， 从 而 更 好 地 发 挥 多 元 宇宙 样 分 析 的 优势 。 


4 多 元 宇宙 样 分 析 的 应 用 


近年 来 ， 多 元 宇宙 样 分 析 越 来 越 受 到 研究 者 的 关注 。 从 2015 年 到 2021 年 ， 以 多 元 宇宙 
样 分 析 为 主题 的 文章 从 9 篇 上 升 到 40 篇 (如 图 3)。 该 方法 近年 来 在 许多 领域 内 得 到 应 用 
Web of Science 的 检索 结果 表明 ， 以 多 元 宇宙 样 分 析 为 主题 或 应 用 该 类 方法 的 研究 分 布 在 行 


为 科学 领域 、 心 理学 领域 、 神 经 科学 领域 、 精 神 病 学 领域 等 。 
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2015 年 2016 年 2017 年 2018 年 2019 年 2020 年 2021 年 


图 3 多 元 宇宙 样 分 析 在 Web of Science 数据 库 中 的 发 文 量 (2015~2021) 


YE: 图 中 数据 来 源 于 Web of Science 检索 结果 。 检 索 关 键 词 为 TS=(“Multiverse analysis”) OR TS=(“Vbrition of effects”) OR 


TS=(“Multimodel analysis”) OR TS=(“Specification curve analysis”). 检索 日 期 范围 始 于 2015 年 ， 截 止 至 2021 Œ 12 月 31 


日 。 


4.1 应 用 于 自我 报告 类 数据 


多 元 宇宙 样 分 析 广泛 运用 于 横向 自我 报告 数据 中 。 在 媒体 心理 学 领域 , 媒体 使 用 是 否 影 
响 青 少年 心理 健康 一 直 是 备 受 争议 的 话题 .研究 者 为 了 探讨 智能 设备 使 用 与 心理 健康 和 主观 
幸福 感 的 关系 ， 使 用 规范 曲线 分 析 进 行 了 大 量 研究 。Orben 和 Przybylski (2019a) 使 用 三 个 国 
家 的 大 型 数据 集 探索 了 屏幕 时 间 (11 种 操作 : 回溯 性 自我 报告 、 时 间 日 记 测 量 、 工 作 日 和 休 
县 日 使 用 等 ) 527R G 种 操作 : 优势 与 困难 问卷 、 自尊 问卷 、 主 观 雷 福 感 问卷 ) 的 关系 ， 
并 对 控制 变量 进行 控制 (2 种 )。 最 后 发 现 二 者 间 并 没有 实质 性 联系 ， 即 使 存在 微弱 的 负 问 
预测 关系 , 这 种 关系 也 不 稳健 。 所 以 他 们 认为 以 往 关 于 屏幕 时 间 不 利于 心理 健康 的 说 法 是 站 
不 住 脚 的 。 此 外 ,他们 的 另 一 项 使 用 规范 曲线 分 析 的 研究 也 发 现 类 似 的 结果 ， 即 媒体 设备 的 
使 用 与 心理 健康 之 间 没 有 实质 性 的 联系 (Orben & Przybylski, 2019b)。Modecki 等 (2020) 使 用 
多 元 宇宙 分 析 探 讨 父母 智能 手机 使 用 对 父母 教养 方式 的 影响 , 发 现 父母 使 用 智能 手机 对 其 教 
养 方 式 的 影响 是 非常 小 的 , 并 且 亲 子 间 不 受 技 术 干 扰 影 响 时 , 更 多 智能 手机 使 用 与 更 高 质量 
的 教养 方式 有 正 向 关系 。 

近年 来 ,多 元 宇宙 样 分 析 也 逐渐 运用 于 追踪 研究 。 为 了 探讨 青年 失业 与 未 来 心理 健康 关 


系 的 稳健 性 ，Wright (2021) Xt 2008 年 经 济 危 机 后 进入 劳工 市 场 的 青年 进行 第 一 次 测量 ， 
在 其 25 岁 时 进行 第 二 次 测量 ,同时 对 若干 控制 变量 进行 操纵 。 在 12 万 个 分 析 策 略 中 ,他 们 
发 现 青 年 失业 经 历 会 导致 未 来 的 不 良心 理 健康 状况 , 这 种 长 时 效应 具有 稳健 性 (79.42% 的 模 
型 在 统计 上 具有 显著 性 , 0.04% 的 模型 发 现 相反 的 预测 效应 )。 为 了 探讨 口服 避孕 药 对 女性 青 
少年 未 来 抑郁 的 影响 ，Anderl 等 (2021) 使 用 规范 曲线 分 析 了 女性 青少年 〈16~19 岁 ) 自我 报 
告 的 口服 避孕 药 使 用 情况 和 成 年 早期 (20~25 岁 ) 自我 报告 的 抑郁 情况 ， 在 818 个 分 析 策 略 
中 ， 他 们 发 现 女性 青少年 的 口服 避孕 药 使 用 与 成 年 早期 的 抑郁 有 着 较 小 但 稳健 的 关系 。 
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4.2 应 用 于 脑 成 像 与 混合 类 数据 


一 一 些 脑 科学 和 生物 学 相关 的 研究 也 正在 使 用 多 元 宇宙 样 分 析 方法 进行 稳健 性 检验 


(Bloom et al., 2021; Cosme et al., 2020; Cosme & Lopez, 2020; Voracek et al., 2019). lùn, Xi 


叶 a 波 不 对 称 性 (Frontal alpha asymmetry, FAA) 是 否 是 抑郁 障碍 病人 脑 电 图 (EEG) 的 一 
个 指标 仍然 存在 争议 , 为 了 回答 这 个 问题 并 检验 该 指标 的 有 效 性 ，Kotlodziej 等 (2021) 对 5 个 
独立 研究 的 脑 电 图 数据 集 ， 使 用 多 元 宇宙 分 析 对 统计 模型 、 信 和 号 空间 、 协 变量 控制 等 进行 操 
作 ， 对 270 种 可 能 的 组 合 进行 稳健 性 分 析 ， 发 现 仅 有 13 种 组 合 呈 现 显著 的 结果 ， 因 此 他 们 
WA FAA 与 抑郁 障碍 之 间 没 有 联系 。 在 功能 性 磁 共 振 成 像 (fMRI) 研究 领域 ， 为 了 探讨 食 
物 线索 反应 、 调 节 和 评估 的 神经 机 制 是 否 与 身体 状况 “如 BMI 指数 、 身 体 肥胖 比例 ) 及 实 
际 饮食 行为 有 有关， 研究 者 使 用 5 个 fMRI 数据 集 ， 对 脑 区 激活 与 饮食 行为 间 的 关系 稳健 性 进 
行 检验 , 规范 曲线 分 析 结 果 表明 , 食物 反应 线索 的 神经 机 制 与 饮食 行为 指标 之 间 的 关系 是 可 
oO 靠 的 、 稳 健 的 (Cosme & Lopez, 2020). 

最 近 也 有 研究 者 将 多 元 宇宙 样 分 析 方 法 应 用 于 混合 类 数据 。 例 如 Méschl 等 (2021) 结 合 
问卷 报告 、 生 理 指标 和 实验 任务 ， 使 用 规范 曲线 分 析 研 究 慢性 压力 (多 种 自我 报告 测量 和 头 
发 皮质 醇 浓度 ) 与 执行 功能 〈 多 种 实验 任务 ) 的 关系 ， 发 现 二 者 的 关系 取决 于 不 同 的 分 析 策 
略 一 一 大 部 分 分 析 策 略 显示 零 效应 ， 仅 小 部 分 策略 发 现 二 者 间 是 正 向 或 负 向 的 关系 。 


4. 3 与 其 他 分 析 方 法 结合 


随 着 多 元 宇宙 样 分 析 方 法 及 原理 的 扩展 , 研究 者 开始 将 其 与 其 他 方法 进行 结合 。 较 为 突 
出 的 几 个 例子 是 将 其 应 用 于 探讨 中 介 效 应 或 变量 间作 用 机 制 的 稳健 性 , 结合 网 络 分 析 方 法 探 


讨 核心 症状 的 稳定 性 ， 以 及 结合 元 分 析 进 行 组 合 性 元 分 析 。 


介 效 应 分 析 在 社会 科学 各 个 学 科 中 得 到 广泛 的 应 用 (MacKinnon et al., 2007; WERS, 
2005; WSR, IEH, 2014)， 特 别 是 在 探讨 因果 关系 的 作用 机 制 时 ， 中 介 效 应 分 析 显 得 尤 


其 重要 (MacKinnon et al., 2007; Rijnhart et al., 2021)。 因 此 ， 在 心理 科学 可 重复 性 危机 的 情况 


下 ， 中 介 效 应 的 稳健 性 值得 进一步 探讨 (Rijnhart etal., 2021). Rijnhart 等 (2021) 将 多 元 宇宙 样 
分 析 方 法 扩展 到 中 介 效 应 分 析 中 ,他们 认为 研究 者 除了 以 往 提 到 的 可 操作 空间 外 , 还 可 以 对 
中 介 变 量 、 中 介 变 量 分析 方 法 、 确 定 中 介 效 应 存在 的 标准 进行 操作 。 基 于 此 ， 他 们 使 用 一 项 
追踪 数据 探讨 体重 改变 对 骨 矿 物质 的 影响 在 多 大 程度 上 受到 身体 成 分 ( 体 脂 率 和 四 肢 肌 肉质 
量 ) 的 中 介 作 用 。 在 108 种 间接 效应 、108 种 直接 效应 和 36 种 总 体 效应 组 合 中 ， 他 们 发 现 
间接 效应 为 正 向 中 介 机 制 , 显著 且 具 有 稳健 性 ; 91.7% 的 直接 效应 不 显著 ; 66.7% 的 总 体 效应 
为 积极 预测 效应 ， 且 55.6% 的 效应 显著 。 因 此 ， 他 们 认为 体 脂 率 是 稳健 的 中 介 机 制 |。 
近年 来 , 随 着 精神 疾病 网 络 理论 和 网 络 分 析 方 法 的 发 展 , 寻找 症状 网 络 中 的 核心 症状 或 
核心 变量 有 助 于 精神 疾病 的 干预 和 治疗 , 但 是 该 领域 也 同样 出 现 了 可 重复 性 危机 , 网 络 指标 
中 心性 的 不 稳定 性 备 受 研究 者 争论 (Bringmann et al., 2019; Dablander & Hinne, 2019; 
年 内 化 问题 症状 和 季 福 感 症状 的 动态 网 络 进行 
分 析 ， 并 根据 网 络 中 心性 指标 确定 网 络 的 核心 症状 。 同时 , 为 了 减少 网 络 构建 过 程 中 症状 的 
选择 性 操作 ， 研 究 者 (通过 操作 症状 、 使 用 不 同 估计 方法 ) 构建 了 32 个 不 同 的 网 络 ， 以 确 
定 不 同 网 络 下 中 心性 指标 的 稳定 性 。 结 果 发 现 ， 思 维 清晰 、 不 高 兴 、 应 对 压力 和 担忧 的 中 介 
性 具有 路 不 同 分 析 策 略 的 稳定 性 ， 表 明 这 些 指标 在 青少年 心理 健康 发 展 过 程 中 的 重要 作用 。 
元 分 析 领 域 的 研究 有 时 也 受到 批评 ,例如 纳入 分 析 研 究 的 标准 ,使 用 什么 估计 模型 等 等 。 
rr 为 此 ， 研 究 者 提出 采纳 、 修 改 多 元 宇宙 样 分 析 的 方法 ,将 其 框架 使 用 在 元 分 析 中 一 一 即 组 合 


pa 


Rodebaugh et al., 2018)。Black 等 (2021) 对 青 少 


性 元 分 析 (combinatorial meta-analysis) (Olsson-collentine et al., 2021; Voracek et al., 2019), 
于 解决 有 冲突 的 元 分 析 结 果 、 有 争议 的 证 据 。Voracek 等 (2019) 使 用 了 组 合 性 元 分 析 探 讨 了 
指 长 比 与 学 丸 激素 敏感 性 的 关系 。 通 过 操作 元 分 析 的 分 析 方 法 〈 效 应 量 指标 选择 、 元 分 析 估 
计 模 型 》 和 纳入 的 研究 的 特征 (性 别 、 年 龄 群体 、 群 体 状态 、 种 族 、 指 长 比 的 测量 方式 、 而 
究 的 发 表 状 态 )， 形 成 了 1592 个 不 同 元 分 析 的 策略 组 合 。 最 后 组 合 性 元 分 析 结 果 表明 ， 指 长 
比 与 而 丸 激素 在 很 大 程度 上 不 存在 关联 。 


4.4 应 用 研究 小 结 


总 的 来 说 , 不 同 研究 在 策略 组 合 选择 上 有 不 同 偏向 , 例如 有 些 研究 较为 侧重 测量 方式 的 


选择 ， 有 些 研 究 更 加 重视 不 同 模型 的 选择 。 这 意味 着 进行 多 元 宇宙 样 分 析 时 ， 应 当 特 别 考 虑 
这 种 情况 〈 如 对 测量 方式 争议 的 考虑 、 对 估计 模型 争议 的 考虑 等 ) ， 这 有 助 于 研究 者 确定 具 
体 分 析 集 略 。 但 对 不 同 测量 方式 争议 的 检验 ,这 依赖 于 现 有 数据 集 是 否 支 持 ( 比 如 数据 集 的 
确 使 用 了 不 同 测量 方式 )。 此 外 ， 在 与 其 他 方法 进行 融合 的 时 候 ， 也 是 聚焦 原 有 方法 不 足 之 
处 ( 原 有 方法 仍然 产生 争议 性 话题 和 不 可 重复 性 问题 )。 但 是 ， 通 过 与 其 他 方法 的 结合 ， 不 
仅 促 进 原 方法 存在 问题 的 解决 ， 也 将 有 利于 心理 科学 领域 中 研究 方法 的 创新 和 发 展 。 


5 多 元 宇宙 样 分 析 的 优势 与 不 足 


多 元 宇宙 样 分 析 方法 可 以 减少 研究 者 的 选择 性 分 析 与 报告 ， 增 加 研究 的 透明 度 ， 揭示 效 
> 应 的 稳健 性 , 在 一 定 程度 上 可 以 缓解 由 选择 性 分 析 、 选 择 性 报告 带 来 的 可 重复 性 危机 。 此 外 ， 
揭示 所 有 的 效应 、 包 容 小 效应 、 寻 求 稳健 的 效应 有 利于 修正 现 有 理论 ， 促 进 理论 的 发 展 ， 并 


进一步 促进 研究 结果 在 临床 中 的 应 用 (Lonsdorf et al., 2022; Prentice & Miller, 1992; Voracek et 


al., 2019). 

BCE Ea ir A SESS PH AS PM BIE. 例如 Kotodziej 等 (2021)、Cosme 
和 Lopez(2020) 圳 括 了 多 个 数据 集 进行 多 元 宇宙 样 分 析 ， 这 种 分 析 有 利于 解决 因 取 样 偏差 或 
地 区 /文化 差异 导致 的 争议 问题 ， 并 提高 结果 的 可 靠 性 。 另 外 ， 心 理学 研究 测量 方式 很 大 程 
度 上 依赖 于 自我 报告 , 这 种 方式 受到 一 些 研究 者 的 质疑 , 而 多 元 宇宙 样 分 析 可 以 纳入 多 种 测 
量 方 式 并 报告 所 有 的 结果 ， 再 检验 结果 的 可 靠 性 。 例 如 Méschl 等 (2021) 使 用 多 种 自我 报告 
问卷 和 头发 皮质 醇 浓度 指标 反映 个 体 的 慢性 压力 水 平 ，Orben 和 Przybylski (2019a) 使 用 自我 
报告 和 回溯 法 评估 个 体 数字 媒体 设备 的 使 用 情况 。 总 之 ,多 元 宇宙 样 分 析 能 够 考虑 多 样 化 的 
变异 《〈 如 群体 差异 、 测 量 差异 、 模 型 估计 方法 差异 等 )， 并 给 出 稳健 性 的 结果 。 

如 上 所 述 ,结合 多 元 宇宙 样 分 析 的 应 用 研究 可 以 发 现 , 该 方法 有 利于 回答 争议 性 的 问题 ， 
即 某 两 个 变量 之 间 的 效应 究竟 怎样 ? 在 这 一 点 上 , 多 元 宇宙 样 分 析 与 元 分 析 类 似 ， 能 将 多 种 
吉 果 放 在 一 起 检验 效应 的 稳健 性 。 虽 然 元 分 析 也 可 以 解决 许多 有 和 争议 性 的 问题 , 但 是 ,多 元 
宇宙 样 分 析 与 元 分 析 并 非 对 立 。 不 少 研究 者 采用 全 世界 研究 者 在 不 同时 间 地 域 采 集 的 不 同样 
本 ， 进 行 多 元 宇宙 样 分 析 ( 如 Orben & Przybylski, 2019a)， 这 样 的 分 析 策 略 兼 有 元 分 析 样 本 多 
样 性 强 和 多 元 宇宙 样 分 析 主 观 偏差 少 的 优势 , 这 也 局 发 研究 者 将 该 多 元 宇宙 样 分 析 的 灵活 性 
到 元 分 析 中 (如 Voracek et al., 2019)。 另 外 ， 需 要 注意 的 是 ， 多 元 宇宙 样 分 析 还 可 以 被 
于 实证 研究 积累 尚 不 充足 、 难 以 开展 元 分 析 的 新 兴 研 究 领域 ， 具 备 元 分 析 所 不 具有 的 独特 
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价值 《例如 ， 有 研究 者 将 规范 曲线 分 析 用 于 单个 参与 者 的 元 分 析 (individual participant meta- 
analysis) (Ballou & Zendle, 2022)) 

多 元 宇宙 样 分 析 也 有 其 局 限 性 。 第 一 ， 这 种 分 析 方 法 非常 耗 时 (Liu etal.,2020)， 特 别 是 
分 析 策 略 增 加 ,样本 量 增 大 ， 且 进行 统计 推断 时 。 研究 者 认为 提高 分 析 过 程 的 自动 化 程度 可 
以 减少 分 析 策 略 ， 例 如 使 用 Young 和 Holsteen (2017) 提 供 的 Stata 分 析 模块 。 此 外 ， 研 究 者 
还 可 以 减少 样本 量 〈( 例 如 对 大 样本 中 随机 抽取 出 的 小 样本 进行 分 析 ) 来 减少 运算 时 间 
(Rijnhart et al., 2021)。 第 二 ， 在 进行 不 同 策略 组 合 的 时 候 ， 默 认 所 有 分 析 策 略 都 有 同样 的 统 
计 推 断 权 重 ,， 且 所 有 的 策略 组 合 在 理论 上 都 是 合理 的 、 统计 上 是 有 效 且 非 匈 余 的 。 虽然 理论 
上 可 以 通过 计算 加 权 后 的 统计 推断 指标 (如 加 权 后 的 中 位 数 )， 但 是 研究 者 仍 难以 确定 哪 种 
分 析 策 略 更 优 ， 应 给 予 哪 种 策略 更 多 的 权重 (Simonsohn et al., 2020)。 第 三 ， 虽 然 多 元 宇宙 
样 分 析 大 幅 扩展 了 分 析 策 略 的 范围 , 对 选择 性 分 析 与 报告 进行 了 限制 , 但 该 方法 本 质 上 还 是 
研究 者 的 主观 操作 。 例 如 ,研究 者 可 能 由 于 某 些 原因 (例如 样本 量 太 大 而 难以 分 析 、 研 究 者 
认为 某 些 分 析 策 略 是 无 效 的 ) 不 会 进行 所 有 有 效 的 分 析 (Rijnhart et al., 2021; Simonsohn et al., 
2020; Steegen et al., 2016)。 另 外 ， 这 也 可 能 引发 研究 操作 的 “真正 任意 性 ”(truly arbitrary) 
问题 , 例如 研究 者 提出 的 不 确定 性 策略 组 合 (比如 两 个 测量 概念 上 是 相似 的 , 但 是 没有 实证 
证 据 表明 测量 的 有 效 性 ， 或 者 潜在 的 控制 变量 对 感 兴趣 效应 量 的 影响 没有 实证 证 据 )， 这 种 
真正 任意 性 问题 也 容易 产生 偏差 , 夸大 所 有 可 能 的 策略 组 合 , 减弱 有 意义 的 效应 (Del Giudice 
& Gangestad, 2021; Masur, 2021)。 针 对 这 种 情况 ， 有 研究 者 提出 了 多 元 宇宙 样 分 析 的 分 析 策 
略 操作 框架 供 研究 者 参考 (Del Giudice & Gangestad, 2021)。 第 四 ， 多 元 宇宙 样 分 析 中 效应 分 
布 统 计 推断 指标 的 可 靠 性 仍 存在 争议 。 例如, 许多 研究 把 效应 分 布 的 中 位 数 或 均值 作为 检验 
稳健 性 的 一 个 指标 , 但 是 有 研究 者 认为 这 种 指标 不 一 定 能 很 好 地 代表 统计 结果 (Rijnhart et al., 
2021; Young & Holsteen, 2017)， 所 以 需要 结合 多 种 指标 〈 例 如 主要 方向 上 的 显著 结果 、P 值 
的 Z 分 数 ) 进行 分 析 (Simonsohn et al.,2020)。 第 五 ， 多 元 宇宙 样 分 析 主 张 报告 所 有 可 能 策略 
组 合 的 结果 (Simonsoh n et al.,2020)， 但 实际 上 较 难 实现 。 研 究 者 在 使 用 该 方法 时 ， 和 常常 基 于 
已 有 的 数据 集 ， 对 已 有 数据 集 实施 所 有 可 能 的 分 析 策 略 并 报告 其 结果 是 可 行 的 。 这 提示 建立 
客观 有 效 的 数据 集 的 重要 性 ， 即 在 数据 收集 之 前 ， 就 应 该 从 已 有 文献 、 经 验 或 理论 出 发 ， 确 
定 相应 的 指标 和 潜在 的 分 析 方法 ， 并 落实 预 注册 从 而 减少 其 中 的 可 操作 空间 。 此 外 ， 主 张 报 
告 所 有 分 析 策 略 ， 也 存在 过 分 依赖 数据 驱动 研究 取向 的 问题 。 但 是 理论 驱动 和 数据 驱动 的 冲 
突 不 是 拒绝 多 元 宇宙 样 分 析 的 理由 , 研究 者 应 该 在 讨论 分 析 结 果 时 充分 发 挥 理论 的 作用 , 注 
意 辨 析 为 什么 不 同 策略 有 不 同 的 结果 , 为 什么 有 些 策略 产生 相同 的 统计 推断 而 有 些 产生 不 同 


- 


的 统计 推断 ， 这 或 许 更 有 助 于 我 们 真正 理解 研究 问题 。 


6 小 结 与 展望 


多 元 宇宙 样 分 析 有 着 独特 的 优势 , 也 存在 一 些 不 足 。 但 该 方法 未 来 在 以 下 几 个 方面 有 待 


进一步 发 展 。 
第 一 ， 应 用 研究 应 尽快 落实 统计 推断 步 台 ,最 大 化 发 挥 多 元 宇宙 样 分 析 的 作用 。 大 部 分 


旋 用 该 方法 的 研究 在 确定 研究 结果 的 稳健 性 时 仍 停留 在 描述 统计 《统计 显著 结果 的 占 比 ) 水 


平 上 


al., 20 


(如 Black et al., 2021; Patel et al., 2015; Rijnhart et al., 2021; Steegen et al., 2016; Wright et 


21; Young & Holsteen, 2017)， 有 时 难以 确定 效应 的 真实 情况 。 例 如 当 显 著 的 效应 和 不 


显著 的 效应 各 占 比 50%， 或 者 正 向 或 负 癌 的 效应 各 占 $0% 时 ， 研 究 者 难以 从 描述 统计 确定 
应 该 相信 哪 种 情况 , 所 以 应 该 进一步 实施 统计 推断 。 此外, 该 方法 可 以 囊括 多 种 变异 (测量 、 


群体 、 


模型 估计 方法 等 )， 但 是 大 部 分 应 用 研究 通常 只 发 挥 其 某 一 方面 的 作用 ， 比 如 使 用 多 


种 测量 《行为 实验 、 生 物 指标 、 自 我 报告 等 ) 解决 不 同 测量 方式 存在 差异 的 问题 (如 M6schl 


et al., 


2021)， 和 使 用 不 同 群 体 解决 不 同 群 体 差 异 的 问题 (如 Cosme & Lopez, 2020; Orben & 


Przybylski, 2019a)。 未 来 应 用 研究 应 该 尝试 赛 括 多 种 变异 ， 以 充分 发 挥 该 方法 的 作用 ， 揭 示 


SUMS 


第 二 , ARMAS AAAS A. BH 


吉 果 的 可 靠 性 。 


见 有 研究 将 其 与 中 介 效 应 分 析 、 网 络 分 析 


和 元 分 析 进 行 融合 , 但 这 些 融 合 的 方式 仍 存在 主观 选择 性 问题 。 例 如 在 网 络 分 析 中 ,对 于 纳 
入 分 析 的 节点 (nodes) 仍 然 是 主观 选择 的 (Black et al., 2021)。 这 意味 着 在 与 其 他 方法 融合 时 ， 


也 要 有 相对 统一 的 、 适 用 于 不 同方 法 的 策略 选择 标准 ,如 适用 于 中 介 效 应 分 析 或 元 分 析 的 纳 


入 标准 等 , 同时 , 也 要 尽 可 能 在 融合 其 他 方法 时 实施 统计 推断 , 以 保证 结果 更 加 可 靠 。 此外， 


AAA 


究 可 以 考虑 将 其 与 更 多 的 其 他 方法 融合 (比如 运用 到 结构 方程 模型 中 )， 促 进 心理 科 


学 领域 研究 方法 的 创新 。 


A 


第 三 , IE AY Se AA ET Te bs. 融合 不 同 参数 估计 和 模型 选择 方法 , 并 完善 分 析 软 件 。 
许多 多 元 宇宙 样 分 析 的 方法 〈 如 多 模型 分 机 ， 效 应 颤动 分 析 ) 并 没有 涉及 统计 推 斯 步骤， 这 
就 使 得 现 有 的 统计 推断 指标 非常 少 。 未 来 研究 应 该 要 考虑 对 更 多 的 指标 〈 例 如 平均 值 ) 进行 


统计 推断 ,但 是 ,有 时 多 种 指标 的 结果 是 互相 矛盾 的 (例如 Simonsohn 等 (2020) 中 的 案例 2), 
这 增加 了 研究 结果 的 解释 难度 , 所 以 未 来 研究 可 通过 模拟 研究 筛选 出 灵敏 性 和 代表 性 更 高 的 


指标 。 


同时 ,在 进行 分 析 策 略 的 选择 时 , 也 可 以 进一步 考虑 不 同 策略 在 不 同 的 参数 估计 方法 、 
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不 同 抽样 算法 下 的 情况 ， 并 考虑 合适 的 模型 选择 指标 。 这 


利于 丰富 多 元 


宇宙 样 分 析 的 策 


略 多 样 性 并 提升 结果 的 稳健 性 。 另 外 , 许多 分 析 软 件 的 软件 包 (例如 multiverse, rfdanalysis, 
specr, specification_curve) 并 没有 涉及 到 统计 推断 ， 大 多 停留 在 对 所 有 组 合 进行 描述 统计 的 
范围 内 , 这 使 得 研究 者 难以 完成 第 三 个 步骤 , 所 以 未 来 的 研究 需要 完善 该 方法 的 分 析 软 件 或 


分 析 包 。 同 时 ， 不 同 的 分 析 软 件 《或 软件 包 ) 报告 的 结果 是 否 存在 差异 也 值得 探讨 ， 这 对 提 


升 结果 的 稳健 性 和 可 重复 性 同样 具有 重要 意义 。 


实验 时 就 开始 了 ， 


第 四 ， 结合 多 种 渠道 ,共同 致力 于 解决 可 重复 性 危机 。 可 疑 研究 操作 可 能 从 研究 者 设计 
因而 多 元 宇宙 样 分 析 无 法 解决 分 析 策 略 前 端的 可 疑 操作 。 另外 该 方法 无 法 


完全 消除 主观 偏差 的 影响 ， 因 为 研究 在 进行 分 析 策 略 组 合 时 ， 仍 然 具有 可 选择 性 (Simonsohn 
et al., 2020)。 所 以 应 当 结 合 前 人 提出 的 其 他 方式 (例如 预 注册 )， 共 同 增加 心理 学 研究 结果 
的 透明 度 和 可 靠 性 。 例如， 心理 学 研究 中 不 乏 将 连续 变量 作为 分 类 变量 处 理 的 情况 (如 实例 
中 的 智能 手机 使 用 )， 但 可 能 存在 “真正 随意 性 ”的 问题 〈 比 如 ， 量 表 的 选择 是 否 合理 、 分 


程 中 ， 以 此 来 减少 主观 操作 (Harder 2020). 


析 模 型 是 否 恰当 等 )。 因 此 研究 者 可 以 考虑 在 预 注 册 中 就 确定 这 一 系列 指标 ， 从 而 在 数据 分 


析 前 减少 此 类 可 疑 操 作 。 此 外 , 还 有 研究 者 倡导 将 该 多 元 宇宙 样 分 析 方法 运用 于 数据 收 


Noh 


Mt 


过 


第 五 , 理性 看 待 不 同 分析 策 略 组 合 的 不 同 结果 。 多 元 宇宙 样 分 析 的 优势 便 是 告诉 研究 者 


所 有 可 能 的 结果 , 那么 要 如 何 看 待 不 显著 或 非 主要 方向 上 显著 的 结果 呢 ? 是 否 把 他 们 当做 微 


不 足 道 的 “误差 ”并 加 以 忽视 ?无论 是 心理 科学 研究 的 可 习 


E 复 性 还 是 多 元 3 


=> 宙 样 分 析 ， 其 实 


都 很 想 强调 一 个 假设 一 一 人 类 的 心理 与 行为 之 间 存 在 简单 的 标准 化 规律 〈 例 如 , 手机 使 用 程 


度 与 心理 健康 水 平 应 存在 唯一 准确 的 对 应 关系 、 或 研究 者 可 以 通过 平均 值 代表 总 体 )。 但 是 


人 类 行为 可 能 并 不 会 这 么 简单 , 其 受 诸多 因素 的 影响 (例如 , 基因 


、 个 体 发 展 、 群 体 、 环境 、 


文化 等 )， 正 如 研究 者 争论 道 “ 研 究 者 通过 样本 刻画 总 体 ， 虽 然 能 够 告诉 许多 关于 总 体 的 信 


Eh, 但 是 还 有 许多 东西 


没有 解释 〈 被 认为 是 误差 ) .…… 社会 科学 中 的 这 个 误差 是 


个 真实 性 


的 、 理 解 性 的 误差 ， 是 知识 上 的 缺陷 ”( 谢 宇 ,2006)。 因 而 ， 许 多 研究 者 反对 追求 这 种 简单 的 


“标准 化 规律 ” 进而 发 展 出 非 标准 化 理论 。 这 提示 研究 者 在 使 有 
看 待 不同 分 析 策 略 组 合 的 不 同 结果 , 理解 不 显著 或 非 主要 方向 上 显著 的 结果 的 存在 意义 ,并 


谨慎 下 结论 。 


多 元 宇宙 样 分 析 时 应 正确 
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Multiverse-style analysis: Introduction and application 


HUANG Shunsen!, CHEN Haojie!, LAI Xiaoxiong!, DAI Xinran', WANG Yun! 


(‘State Key Laboratory of Cognitive Neuroscience and Learning, Beijing Normal University, Beijing 100875, China) 


Abstract Selective analysis and selective report are one of the main triggers of the replicability crisis in 
psychological science. In recent years, researchers have proposed a new method—nultiverse-style analysis, which 
includes multiple data analytic decisions to reduce the subjective selectiveness and arbitrariness and performs 


robustness to increase the reliability of results. This manuscript introduces the multiverse-style analysis and related 
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steps by using the example of exploring the relationship between smartphone use and smartphone stress. The 
multiverse-style analysis method has been applied in fields such as psychology and cognitive neuroscience. Future 
research should continue to develop and improve the statistic inference of multiverse-style analysis, so that it can be 


applied to more sorts of data and broader research fields. 


Keywords: multiverse-style analysis, replicability crisis, selective analysis, selective report, questionable research 


practice, smartphone stress 


